Man könnte natürlich verschiedene Datensätze erstellen - einmal einen ohne Stopwortliste und dann einen mit; das sollte in PHP ruckzuck gehen.
Hmm... Mit ein paar ordentlichen Klassifikatoren und gestaffelten Datensätzen (beispielsweise insgesamt/im letzten Jahr/im letzten Monat/pro (Jahr/Monat)) könnte man ein paar nette Statistiken aufstellen - beispielsweise, welche Sprachen wann am populärsten waren und wie viel Prozent aller Substantive eigentlich Fachjargon sind.
(BTW, da müßte man mal einen Admin anhauen, ob der einem über Nacht mal einen selektiven Datenbankdump anfertigen könnte (mit anonymisierten UIDs, versteht sich); das würde das Preprocessing stark vereinfachen.)
Ah. Code nicht gelesen und einen allgemeinen Vorschlag gemacht.Zitat